🤔 Почему моя модель машинного обучения резко теряет точность после выхода в продакшн, хотя на тестах всё было отлично
Потому что модель обучалась на «чистом» датасете, а в продакшне сталкивается с реальными, грязными и непредсказуемыми данными.
🧩Типовые причины падения качества:
1. Искажения входных признаков — Например, в одном из полей вместо десятичного значения приходит строка или ноль. Модель не понимает контекст и делает ошибочный прогноз.
2.Отсутствие валидации на этапе inference — Если данные не проходят базовую проверку перед подачей в модель, она работает на мусоре. А мусор на входе = мусор на выходе (GIGO).
3. Появление новых распределений (data drift) — В продакшн приходят значения, которых в трейне не было. Модель не обучалась на таких случаях и путается.
4. Неверная предобработка в проде — Самая частая причина: трансформации признаков в проде не совпадают с тем, как они делались в трейне. Всё — от разного кодирования категорий до забытых скейлеров.
🛠Как защититься
➡️ Внедрить валидацию входных данных (тип, диапазон, формат). ➡️ Использовать инвариантные признаки, устойчивые к мелким искажениям. ➡️ Настроить мониторинг данных на inference, чтобы ловить отклонения от трейна. ➡️ Автоматизировать регулярное переобучение с учётом новых поступающих данных. ➡️ Обеспечить идентичность пайплайнов: то, что в трейне — то и в проде.
🤔 Почему моя модель машинного обучения резко теряет точность после выхода в продакшн, хотя на тестах всё было отлично
Потому что модель обучалась на «чистом» датасете, а в продакшне сталкивается с реальными, грязными и непредсказуемыми данными.
🧩Типовые причины падения качества:
1. Искажения входных признаков — Например, в одном из полей вместо десятичного значения приходит строка или ноль. Модель не понимает контекст и делает ошибочный прогноз.
2.Отсутствие валидации на этапе inference — Если данные не проходят базовую проверку перед подачей в модель, она работает на мусоре. А мусор на входе = мусор на выходе (GIGO).
3. Появление новых распределений (data drift) — В продакшн приходят значения, которых в трейне не было. Модель не обучалась на таких случаях и путается.
4. Неверная предобработка в проде — Самая частая причина: трансформации признаков в проде не совпадают с тем, как они делались в трейне. Всё — от разного кодирования категорий до забытых скейлеров.
🛠Как защититься
➡️ Внедрить валидацию входных данных (тип, диапазон, формат). ➡️ Использовать инвариантные признаки, устойчивые к мелким искажениям. ➡️ Настроить мониторинг данных на inference, чтобы ловить отклонения от трейна. ➡️ Автоматизировать регулярное переобучение с учётом новых поступающих данных. ➡️ Обеспечить идентичность пайплайнов: то, что в трейне — то и в проде.
Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.
Pinterest (PINS) Stock Sinks As Market Gains
Pinterest (PINS) closed at $71.75 in the latest trading session, marking a -0.18% move from the prior day. This change lagged the S&P 500's daily gain of 0.1%. Meanwhile, the Dow gained 0.9%, and the Nasdaq, a tech-heavy index, lost 0.59%.
Heading into today, shares of the digital pinboard and shopping tool company had lost 17.41% over the past month, lagging the Computer and Technology sector's loss of 5.38% and the S&P 500's gain of 0.71% in that time.
Investors will be hoping for strength from PINS as it approaches its next earnings release. The company is expected to report EPS of $0.07, up 170% from the prior-year quarter. Our most recent consensus estimate is calling for quarterly revenue of $467.87 million, up 72.05% from the year-ago period.
Библиотека собеса по Data Science | вопросы с собеседований from br